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摘要 近年 来 ， 美 国 、 欧 盟 都 陆续 启动 了 微生物 组 相关 的 研究 项 目 。 但 微生物 组 大 数据 的 收 
集 、 存 储 、 功 能 挖掘 和 开发 利用 一 直 是 制约 微生物 组 发 展 的 核心 问题 。 文 章 分 析 了 我 国 目 
前 在 微生物 组 数据 管理 中 存在 着 标准 不 统一 、 缺 乏 跨 领域 的 数据 整合 、 高 质量 的 参考 数据 
库 和 数据 的 深度 挖掘 技术 等 问题 ， 提 出 适时 启动 “中 国 微生物 组 ”计划 ， 建 立 中 国 微生物 
组 数据 中 心 ， 在 微生物 组 数据 标准 化 的 基础 上 ， 建 立 微生物 组 大 数据 计算 、 存 储 和 共享 平 
台 ， 开 发 微生物 组 大 数据 挖 据 的 新 方法 ， 实 现 我 国 微生物 组 数据 资源 的 系统 管理 和 高 效 利 
用 。 


关键 词 微生物 组 ， 标 准 化 ， 大 数据 ， 中 国 微生物 组 数据 中 心 
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微生物 组 ( Microbiome ) 是 指 一 个 特定 环境 中 的 总 的 微生物 群落 ， 通 过 在 一 定 环境 空 

间 的 相互 作用 和 平衡 ， 形 成 了 相对 稳定 的 生态 环境 并 具有 一定 的 生理 功能 。 长 期 以 来 ， 微 

生物 群落 被 认为 在 营养 代谢 、 污 染 物 降解 、 维 持 动 植物 和 人 体 生态 系统 平衡 中 发 挥 着 关键 

作用 ， 然 而 ， 对 其 中 的 作用 机 制 并 不 清楚 。 高 通 量 测序 技术 的 广泛 应 用 ， 为 在 群落 水 平 上 

研究 微生物 的 功能 和 作用 机 制 开 以 了 新 的 思路 ， 使 得 我 们 能 够 从 全 基因 组 角度 研究 自然 和 

人 体 环境 样品 中 微生物 的 组 成 和 功能 ， 为 我 们 寻找 新 基因 、 开 发 新 的 生物 活性 物质 、 研 究 

环境 中 微生物 多 样 性 和 进化 提供 了 重要 手段 ， 也 使 得 这 一 领域 迅速 成 为 研究 热点 。 海 量 测 

Unam. 国家 “863” 计 “序数 据 的 产生 ， 使 得 微生物 组 学 成 了 一 门 真正 的 大 数据 科学 。 以 人 体 微生物 组 为 例 ， 它 包 
HAC 含 了 数 万 亿 个 细胞 ， 占 人 体 总 细胞 的 90% 以 上 ， 涵 盖 上 千 个 物种 ， 至 少 2 000 万 个 独特 的 


修改 稿 收 到 日 期 2017 年 2 
7258 微生物 基因 ， 其 数目 远 远 超过 人 的 基因 数目 (大约 2 万 至 2.5 AANER). ARME 
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组 项 目 ( Human Microbiome Project, HMP ) H 2008 年 
启动 至 2012 年 第 一 阶段 结束 期 间 ， 共 完成 5177 个 16S 
rDNA 样本 ，681 个 全 基因 组 序列 ( Whole Genome 
Sequences，WGS ) 样本 和 3 000 余 个 高 质量 的 参考 基因 
组 测序 站。 然而 ， 当 测序 成 本 已 经 不 再 成 为 微生物 组 学 发 
展 的 主要 限制 因素 时 ， 数 据 分析 就 成 了 微生物 组 研究 卫 
对 的 最 大 挑战 。 

本 文 围绕 微生物 组 数据 管理 与 分 析 这 一 关键 问题 ， 
分 析 了 目前 的 现状 和 和 需求， 总结 了 国内 外 发 展 趋势 和 问 
题 ， 提 出 了 我 国 微生物 组 数据 中 心 建设 的 思考 和 建议 。 


1 微生物 组 数据 管理 和 分 析 的 现状 和 需求 


(1) 在 目前 元 基因 组 研究 的 各 个 过 程 ， 从 样本 的 采 
集 、 提 取 、 测 量 方法 ( 如 高 通 量 测序 技术 、 质 谱 、 核 磁 
等 ) ， 到 数据 的 分 析 和 整合 的 各 个 环节 ， 都 缺乏 标准 化 
的 协议 。 而 元 基因 组 数据 标准 不 统一 以 及 整合 技术 的 缺 
失 ， 使 得 不 同 研究 课题 、 不 同 采样 来 源 、 不 同 数据 平台 
的 样本 数据 只 能 简单 地 按照 采样 信息 对 其 进行 汇总 ， 而 
无 法 根据 结构 特征 和 功能 进行 集成 和 统一 挖掘 分 析 ， 因 
此 也 无 法 从 大 范围 的 数据 中 获得 其 蕴含 的 生物 意义 。 

(2) 微生物 组 数据 及 其 分 析 的 特点 ， 对 复杂 数据 的 


ChinaXiv 合 作 期 刊 


人 体 微生物 组 ， 也 仍然 有 将 近 一 半 预 测 的 开放 阅读 框架 
( Open Reading Frame, ORF ) 无 法 找到 相应 的 相似 性 序 
列 来 进行 功能 研究 中 。 相 对 于 人 研究 基础 较 多 的 人 体 微生物 
组 ， 新 环境 下 元 基因 组 的 研究 更 缺乏 有 效 的 实验 和 计算 
手段 。 目 前 ， 国 际 上 也 陆续 建立 起 了 如 土壤 微生物 ”， 发 
酵 食 品 中 等 环境 相关 的 高 质量 参考 数据 库 ， 为 功能 注释 提 
供 了 重要 的 参考 ， 也 对 数据 整合 起 到 了 极 大 的 帮助 。 

此 外 ， 元 基因 组 快速 对 比 与 海量 数据 搜索 技术 的 缺 
失 ， 爆 发 式 增 长 的 元 基因 组 数据 的 存储 和 分 析 对 成 本 和 
计算 能 力 的 需求 等 问题 ， 都 迫切 需要 通过 新 型 硬件 ( 如 
GPU 等 ) 、 云 计算 、 关 联 数据 整合 方法 、 高 效 搜索 算法 
等 相 结 合 ， 提 出 创新 解决 方案 。 


2 国际 微生物 组 数据 平台 建设 情况 

2016 年 5 月 13 日 ,美国 政府 颁布 了 投资 5.21 亿美 
元 的 “美国 国家 微生物 组 计划 ”， 试 图 通过 对 各 种 不 同 
环境 中 微生物 生态 系统 的 综合 研究 ， 深 入 揭示 微生物 组 
的 组 成 、 结 构 及 功能 ， 促 进 对 健康 微生物 组 功能 的 保护 
和 人 恢复。 截至 2016 年 ， 国 际 上 已 陆续 启动 了 由 美国 国 
立 卫 生 研究 院 (National Institutes of Health, NIH ) 支持 
的 HMP、 由 欧盟 支持 的 人 肠 道 微生物 组 ( MetaHIT ) 


整合 提出 了 很 高 的 要 求 。 微 生物 组 研究 产生 了 大 量 的 复 
杂 数 据 ， 既 有 对 环境 、 样 本 进行 描述 的 元 数据 ， 也 有 原 
始 的 测序 文件 ， 还 包括 格式 各 异 的 序列 注释 和 功能 研究 
产生 的 数据 ， 由 此 而 形成 的 对 大 规模 复杂 数据 的 组 织 、 
存储 、 访 问 、 共 享 以 及 与 关联 数据 进行 整合 能 力 的 要 
求 ， 也 是 一 个 巨大 的 挑战 。 此 外 ， 不同 的 生态 系统 ( 如 
肠 道 、 土 壤 、 海 洋 等 ) 、 不 同 结构 和 功能 特征 的 数据 整 
合 和 对 比分 析 也 有 着 非常 重要 的 价值 ， 能 够 对 跨 生 态 系 
统 的 分 析 、 物 种 分 布 与 环境 因素 的 相互 作用 机 制 提供 数 
据 支持 。 

(3) 微生物 组 数据 分 析 缺 乏 高 质量 的 参考 序列 。 因 
为 元 基因 组 研究 中 物种 识别 和 基因 注释 都 依赖 于 已 知 参 
考 基 因 组 及 相关 注释 信息 , 即便 是 已 经 有 大 量 系 统 研究 的 


等 13 项 与 人 类 健康 相关 的 微生物 组 项 目 及 包括 “地 球 微 
生物 组 计划 ” (Earth Microbiome Project, EMP ) 、 海 洋 


微生物 B3 计划 (Micro B3 Biodiversity, Bioinformatics, and 
Biotechnology ) 等 在 内 的 9 4- SE (iE VI ZRUDERE TT X] 
这 些 项 目 大 多 建立 了 完善 的 数据 集成 机 制 和 数据 管理 平 
台 ， 通 过 对 人 体 和 环境 样本 进行 测序 分 析 ， 全 方位 理解 微 
生物 群落 的 多 样 性 及 功能 。 

HMP 是 由 美国 国立 卫生 研究 院 支持 的 项 目 ， 一 
期 从 2008 年 至 2012 Æ, 2014 年 起 开始 了 第 二 期 的 研 
究 工 作 。 该 项 目的 主要 目标 是 探索 人 体 微生物 组 与 人 
类 健康 和 疾病 的 关系 ， 主 要 集中 在 呼吸 道 、 口 腔 、 皮 
肤 、 肠 道 、 阴 道 5 个 方面 。 该 项 目 分 别 在 贝勒 医学 院 
(Baylor College of Medicine，BCM ) 和 华盛顿 医学 院 
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( Washington University School of Medicine ) 两 个 临床 
中 心 从 242 个 人 的 身上 获取 上 千 个 样本 ， 在 BCM 人 类 
基因 组 测序 中 心 、 麻 省 理工 学 院 Broad 研究 所 测序 
心 、 文 特 研究 所 和 华盛顿 大 学 医学 院 4 个 测序 中 心 进行 
了 16S fil WGS 测序 中 。 由 于 样本 采集 和 测序 都 是 由 不 同 
的 机 构 分 别 进行 的 ， 项 目 开发 了 针对 测序 和 数据 分 析 
的 标准 协议 和 质量 控制 过 程 。HMP 项 目 也 建立 了 数据 
分 析 和 管理 中 心 (Data Analysis and Coordination Center, 
DACC ) 来 存储 所 有 项 目 产 生 的 168. WGS 和 参考 基因 
组 序列 。 同 时 ，DACC 也 发 布 新 闻 、 通 知 公告 、 项 目的 
统计 数据 ， 并 与 测序 中 心 合作 ， 共 同 进 行 数 据 的 分 析 和 
注释 工作 。 项 目 产生 的 所 有 数据 ， 也 同时 提交 到 美国 国 
立 生 物 信息 中 心 进行 公开 。 

2010 年 8 月 ， 地 球 微生物 组 计划 (EMP ) 正式 启 
动 ， 计 划 旨 在 通过 对 全 球 典型 的 环境 样本 进行 宏基 因 组 
测序 ， 包 括 土壤 、 海 洋 、 空 气 、 淡 水 等 生态 系统 ， 从 而 
全 方位 地 分 析 微 生物 群落 的 多 样 性 及 其 功能 。 项 目 在 设 
立 之 初 ， 就 将 建立 一 个 用 以 解决 地 球 生态 系统 基础 问题 
的 集成 样本 、 基 因 、 和 蛋白 质 的 数据 库 作 为 3 个 主要 目标 
之 一 。 为 了 实现 对 元 数据 和 数据 的 质量 控制 ，EMP 项 
目 推荐 使 用 基因 组 最 小 数据 规范 ( Minimum Information 


about a Genome Sequence Specification, MIGS ) 四 和 环 


境 序列 最 小 数据 规范 ( Minimum Information about an 
ENvironmental Sequence specification, MIENS ) "EX 
数据 标准 ， 并 且 定 义 了 关于 元 数据 、DNA 提取 、16S 、 
18S, 、ITS 等 不 同 测序 目标 的 标准 和 协议 "。 项 目 产生 
的 数据 通过 定量 微生物 生态 系统 数据 库 (Quantitative 
Insights into Microbial Ecology database，QIIME ) 进行 管 
理 和 共享 。 截 至 2014 年 8 月 , 项目 已 经 有 超过 200 个 合 
作者 提供 数据 ， 样 本 覆盖 超过 40 种 不 同 的 生态 环境 "”。 
除了 项 目 建立 的 数据 中 心 ,一些 主要 的 测序 和 


室 建立 的 Metagenome-RAST ( MG-RAST ) Y", Hi 
得 到 了 较为 广泛 的 应 用 。 

IMG 平台 支持 美国 能 源 部 联合 基因 组 研究 中 心 进 
行 测序 的 数据 进行 注释 、 分 析 和 管理 , 逐步 对 全 球 科学 
家 免费 开放 。 在 数据 标准 方面 ，IMG 及 其 数据 管理 平 
台 Genome Online"? (图 1 ) 都 使 用 国际 基因 组 标准 委员 
“领导 制定 的 
一 系列 关于 环境 测序 样本 描述 的 最 小 数据 集 ， 因 此 ， 整 
合 的 数据 能 够 按照 生态 系统 、 环 境 、 宿 主 或 工程 改造 进 
行 分 类 组 织 。 此 外 ,平台 目前 还 提供 一 系列 的 对 基因 组 
和 元 基因 组 数据 的 分 析 工 具 。 


会 ( Genomic Standards Consortium, GSC ) 
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图 1 IMG 数据 管理 平台 


MG-RAST 主要 目的 是 为 用 户 提供 基于 高 性 能 计算 资 
源 的 元 基因 组 数据 的 系统 发 育 和 功能 注释 等 分 析 流 程 ， 
对 于 非 生物 信息 学 专业 的 用 户 来 说 ， 可 以 简单 地 通过 一 
个 工作 流 (图 2) ， 得 到 元 基因 组 数据 关于 注释 的 基本 信 


研究 机 构 也 建立 了 微生物 组 的 数据 平台 。 其 中 由 美国 
能 源 部 联合 基因 组 研究 中 心 建立 的 整合 微生物 基因 组 
( Integrated Microbial Genomes, IMG ) 5 和 阿 贡 国 家 实验 
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息 。 同 时 ，MG-RAST 也 提供 了 数据 管理 的 平台 ， 用 户 可 
以 对 自 有 的 元 数据 和 序列 文件 进行 管理 ， 并 且 可 以 选择 
公开 或 者 对 数据 保持 私有 。 


For assessing the quality of the data set, the nucleotide position histogram is a good starting point. 
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图 2 MG-RAST 通 过 自动 化 的 分 析 工 具 形 成 的 分 析 结 果 


因此 ， 可 以 看 到 在 国际 上 ， 尤 其 是 美国 ， 已 经 在 
微生物 组 研究 及 其 数据 分 析 方面 具有 了 比较 好 的 工作 基 
础 ， 形 成 了 有 一 定 影响 力 的 数据 管理 和 分 析 平 台 ， 能 够 
对 大 型 测序 项 目的 数据 进行 有 效 管理 ， 并 通过 相对 统一 
的 标准 和 质量 控制 程序 ,来 保证 数据 产生 的 质量 。 然 
而 ， 它 们 也 仍然 存在 一 系列 的 问题 ， 如 数据 中 心 主要 以 
基因 组 和 元 基因 组 数据 为 主 ， 缺 乏 与 其 他 数据 的 整合 ; 
以 纵向 数据 整合 为 主 ， 跨 领域 和 不 同 生 态 系 统 的 数据 集 
很 少 ; 同时 也 缺乏 高 质量 的 参考 数据 集 、 高 效 的 计算 资 
源 及 快速 的 数据 分 析 平 台 等 "1。 


3 我 国 微生物 组 数据 平台 建设 的 现状 及 需求 

中 国 一 方面 积极 参与 了 国际 EMP 计划 ， 男 一 方面 ， 
早 在 21 世纪 初 ， 中 科 院 微生物 所 有 关 专 家 就 开始 推动 
“微生物 地 球 ” 研 究 计 划 ; 2014 年 ， 中 科 院 组 织 并 启动 
了 土壤 微生物 相关 的 先导 专项 研究 计划 。 中 国 科学 家 已 
经 在 人 体 微生物 组 、 酿 造 微生物 组 、 微 生物 数据 资源 等 
方面 ， 取 得 了 很 好 的 成 绩 。 从 论文 的 发 文 量 来 看 ， 中 国 
已 仅 次 于 美国 ， 居 于 全 球 第 二 位 ， 但 是 与 第 一 名 美国 ， 
还 有 较 大 的 差距 (图 3 ) 。 

以 中 科 院 为 核心 的 团队 ， 在 微生物 组 的 数据 平台 建 
设 和 数据 分 析 方面 ， 具 有 较 好 的 基础 。 在 以 微生物 为 核心 
的 数据 平台 建设 方面 ， 落 户 于 中 科 院 微生物 所 的 世界 微 生 
物 数据 中 心 是 我 国生 命 科学 领域 第 一 个 世界 数据 中 心 。 中 
科 院 微生物 所 马 俊 才 团 队 建 立 的 全 球 微生物 资源 目录 数据 
平台 (Global Catalogue of Microorganism, GCM ) ， 目 前 


国际 微生物 资源 保藏 机 构 ， 超 过 30 万 的 微生物 实物 资源 
的 详细 信息 ， 其 中 不 乏 来 自 特殊 生态 环境 、 具 有 重要 的 
科研 和 工业 应 用 价值 的 微生物 中 。 此 外 ， 马 俊才 团队 还 建 
立 了 食 源 性 病原 微生物 、 极 端 环境 微生物 等 高 质量 基因 
组 参考 数据 库 ， 整 合 了 海量 国际 微生物 组 数据 和 分 析 工 
作 流 ， 形 成 了 一 个 基于 云 环境 的 微生物 组 分 析 系 统 。 最 
近 ， 中 科 院 北京 生 科 院 赵 方 庆 团队 建立 了 RiboFR-seq" |、 

metaSort"" 、inGAP-s 人 1 和 inGAP-CDGP3 等 多 种 微生物 组 
学 研究 的 新 技术 和 新 方法 ， 这 些 工 具 分 别针 对 微生物 组 分 
析 中 的 拼接 、 序 列 归 类 和 注释 ， 以 及 微生物 间 相 互 作 用 等 
问题 ， 为 高 效 解读 微生物 组 提供 了 全 新 的 技术 手段 。 中 科 
完 青 岛 生物 能 源 与 过 程 所 苏 晓 果 、 宁 康 等 团队 开发 了 元 基 
因 组 高 性 能 计算 分 析 软 件 Parallel-META 3 以 及 元 基因 组 
比较 算法 Meta-Storms ' fll GPU-Meta-Storms ^ ， 能 够 
深入 、 全 面 、 快 速 地 将 数量 庞大 的 未 知 微生物 组 进行 结构 
与 功能 解析 ， 从 而 允许 从 大 数据 的 角度 剖析 疾病 或 生态 灾 
害 下 微生物 组 的 变化 规律 。 中 科 院 青岛 生物 能 源 与 过 程 所 
徐 健 等 团队 提出 了 “ 拉 曼 组 ” (Ramanome ) 与 “元 拉 曼 
2H" (Meta-ramanome ) 的 概念 ， 能 够 在 单个 微生物 细胞 
精度 、 非 标记 式 、 快 速 表征 与 测量 细胞 群体 或 群落 的 状态 
与 功能 ; 它们 与 元 基因 组 等 “基因 型 ”数据 有 着 本 质 区 
别 ， 与 元 转录 组 、 元 蛋白 组 和 元 代谢 组 等 现 有 “ 表 型 ” 数 
据 相 比 ， 在 单 细 胞 精度 、 非 破坏 性 、 通 量 和 成 本 等 方面 也 
有 具 不 可 替代 的 优势 ， 代 表 着 一 种 并 新 的 微生物 组 大 数据 类 
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图 3 2010—2015 年 全 球 微 生物 组 论文 发 文 量 排名 前 十 的 国家 
(数据 来 源 : Web of Sciences ) 
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然而 ,我 国 微生物 组 相关 研究 的 数据 资源 散落 于 各 
实验 室 ， 尚 无 国家 层面 的 微生物 组 数据 库 体系 和 数据 管 
理 机 制 ， 同 时 在 数据 管理 中 还 存在 着 标准 不 统一 、 数 据 
产 出 和 数据 分 析 脱 节 、 数 据 集成 和 保存 困难 、 分 析 技 术 
与 方法 不 完善 、 数 据 深度 挖掘 技术 缺乏 等 问题 ， 缺 乏 高 
效 、 稳 定 、 可 用 的 计算 平台 ， 无 法 从 海量 数据 中 发 现 有 
价值 的 生物 学 信息 ， 严 重 阻碍 着 微生物 组 技术 的 发 展 与 
应 用 。 


4 思考 与 建议 


数据 资源 是 微生物 组 研究 的 关键 ,更 是 重要 的 战略 
资源 。 与 基因 组 研究 相 比 ， 微 生物 组 研究 在 国际 上 处 于 
起 跑 阶 段 。 应 立足 于 我 国 微生物 组 研究 的 现状 ， 解决 微 
生物 组 数据 管理 和 分 析 的 关键 问题 ， 并 逐步 形成 自己 的 
核心 优势 。 特 提出 以 下 建议 : 

(1) 构建 微生物 组 数据 标准 化 及 数据 管理 系统 。 
建立 一 套 完 整 的 微生物 组 研究 的 技术 标准 ( 样本 采集 、 
保存 、 数 据 产 出 、 分 析 、 质 量 控制 ) 及 管理 规范 和 机 制 
(数据 共享 、 存 储 、 知 识 产权 等 ) ; 实现 标准 化 的 数据 
接口 和 存储 方案 、 标 准 化 的 分 析 方 法 和 流程 、 标 准 化 
计算 、 存 储 方案 的 评价 体系 和 标准 化 数据 安全 及 分 级 体 
系 。 在 此 基础 上 ， 开 发 微生物 组 数据 管理 系统 ， 逐 步 整 
合 国 内 相关 研究 产生 的 人 体 、 环 境 、 工 农业 等 微生物 组 
数据 资源 ， 实 现 对 我 国 微生物 组 数据 资源 的 有 效 管 理 和 
高 效 集成 。 

(2) 建立 微生物 组 大 数据 计算 、 存 储 和 共享 平台 。 
搜集 和 整理 海量 公共 微生物 组 数据 ， 整 合 样 本 的 多 组 学 
信息 ， 实 现 微 生物 组 大 数据 的 广泛 、 深 层次 整合 ; 建立 
高 质量 的 微生物 组 参考 数据 库 ; 实现 高 效 的 大 数据 搜索 
与 相似 度 分 析 算 法 的 开发 ; 建立 高 效 的 微生物 组 数据 处 
理 流 程 ， 实 现 对 微生物 组 数据 的 系统 管理 、 高 效 分 析 及 
整合 利用 。 

(3) 开发 微生物 组 大 数据 挖 据 的 新 方法 。 建 立 适 合 
元 基因 组 物种 谱 注释 和 全 基因 组 序列 拼接 方法 ， 开 发 基 
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于 降低 物种 复杂 度 策略 的 宏基 因 拼 接 和 序列 归 类 算法 ， 
建立 基于 多 序列 联 配 的 远 缘 元 基因 组 数据 的 功能 注释 方 
法 ,发 展 基于 菌 群 结构 和 功能 相似 性 的 微生物 组 大 数据 
搜索 引擎 ， 并 结合 人 工 智 能 发 展 针 对 慢性 疾病 和 生态 灾 
害 的 微生物 组 诊断 和 预警 技术 。 开 发 适用 于 高 性 能 计算 
平台 的 数据 处 理 方法 ,实现 大 规模 数据 及 分 析 结 果 的 可 
视 化 。 

(4) 加 强 以 我 为 主 的 国际 合作 。 以 数据 平台 为 基 
础 ， 参 与 国际 标准 的 制定 ， 积 极 引 领 满足 国家 重大 需求 
的 国际 微生物 组 数据 合作 计划 ， 形 成 更 大 范围 的 数据 共 
享 体系 ， 提 升 我 国 在 微生物 组 研究 领域 的 国际 影响 力 和 
贡献 度 。 

各 国 已 将 微生物 组 研究 置 于 空前 重要 的 位 置 ， 并 形 
成 比较 完善 的 工作 基础 。 我 国 在 微生物 资源 、 测 序 能 力 
等 方面 具有 显著 优势 ， 但 在 微生物 组 大 数据 的 收集 、 存 
储 、 功 能 挖掘 、 开 发 利用 等 关键 技术 上 ， 仍 存在 诸多 薄 
弱 环 节 ， 这 也 是 制约 我 国 微生物 组 研究 的 关键 问题 。 因 
此 ， 我 们 建议 适时 启动 “中 国 微生物 组 ”计划 ， 建 立 中 
国 微生物 组 数据 中 心 ， 实 现 我 国 微生物 组 数据 资源 的 系 
统管 理 和 高 效 利用 
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Strategies on Establishment of China’s Microbiome Data Center 


Ma Juncai Zhao Fangqing” Su Xiaoquam Xu Jian? Wu Linhuan' 

(1 Institute of Microbiology, Chinese Academy of Sciences, Beijing 100101, China; 
2 Beijing Institute of Life Sciences, Chinese Academy of Sciences, Beijing 100101, China; 
3 Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences, Qingdao 266101, China ) 
Abstract — Microbiome is the total microbial community of certain environment. Microbiome is considered to play a crucial role on the 
nutrition metabolism, degradation of pollutant, maintain a balance of ecosystem of animal, plant and human beings although the fundamental 
mechanism is still unknown. The tremendous development of broad application of high throughput sequencing technology provides the 
possibility to comprehensive understanding of the composition and functions of microbiome from the view of whole genome sequencing. 
Microbiome has gradually become a research focus recently. The United States and EU launched national and international projects on 
microbiome. However, data management and high through-put data analysis still bottlenecks for microbiome research. This paper pointed out 
current problems for microbiome data management, including the standardization, cross-fields data integration, and high quality reference 
databases, summarized international microbiome projects and data platforms, and then analyzed current status and questions to be addressed by 
Chinese researches. Finally, the authors proposed suggestions and strategies for the development of Chinese microbiome data researches and 
the establishment of national data center. 
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